聖心女子大学国際交流学科
2024年秋学期
\(P\) valueをなぜ使うか
問い=帰無仮説
仮説検定は以下の手順を踏んでいると想定しています
無限大回数繰り返す(\(\simeq\)何度も標本抽出する)ことで、母集団平均値の分布を描くことができます
\(P\) valueをなぜ使うか
母集団平均値分布で\(\bar{x}\)が外れ値 ⇒ \(\bar{x}\)と\(\mu\)の差が大きい
⇔
⇔
帰無仮説(政策効果なし)の分布では極端な事象
⇔
政策効果なしは疑問視(「政策効果あり」)
\(P\) valueをなぜ使うか
でも、通常は、母集団からの標本抽出などできません
手元にあるデータが唯一の場合
\(P\) valueをなぜ使うか
library(ggplot2)
library(data.table)
set.seed(12345)
alpha <- 1
beta <- 4
n <- 3
base <- ggplot() + xlim(alpha-1, beta+1)
m2 <- NULL
for (i in 1:5) {
m1 <- runif(n, min = alpha, max = beta)
m1 <- data.table(x=m1, y = 0-i/(5*5), z = i)
m2 <- rbind(m2, m1)
}
m2[, z := factor(z)]
m3 <- m2[, .(mean = mean(x), y = mean(y)), by = z]
g <- base +
geom_point(data=m2, aes(x=x, y=y, group = z, shape = z, colour = z)) +
stat_function(aes(colour = "state 1"), fun = dunif, args = list(alpha, beta), n = 10001) +
geom_point(data=m3, aes(x=mean, y=y, group = z), shape = 10, colour = "blue") +
geom_point(data=m3, aes(x=mean, y=0), shape = 10, colour = "blue") +
theme(
legend.position = "none"
)
g <- g + geom_density(data = m3, aes(x=mean))抽出回数=50で上記Rコードを繰り返します。
\(P\) valueをなぜ使うか
特定の確率密度関数=母集団から抽出
\(P\) valueをなぜ使うか